Working with Large Datasets (data.table)

Advanced Topics in R (আর এর উন্নত বিষয়বস্তু) - আর প্রোগ্রামিং (R Programming) - Computer Programming

273

R-এ Large Datasets এবং `data.table` এর ব্যবহার

R-এ বড় ডেটাসেটের সাথে কাজ করা কখনও কখনও একটি চ্যালেঞ্জ হতে পারে, কারণ R মূলত মেমরিতে ডেটা রাখে এবং একসাথে অনেক ডেটা প্রসেস করতে পারে না। তবে, data.table প্যাকেজটি R-এ বড় ডেটাসেটের সাথে কাজ করার জন্য বিশেষভাবে ডিজাইন করা হয়েছে। এটি data.frame এর চেয়ে দ্রুত এবং মেমরি কার্যকরী হতে সাহায্য করে।

data.table হল একটি শক্তিশালী প্যাকেজ, যা দ্রুত ডেটা প্রক্রিয়াকরণ এবং বৃহৎ ডেটাসেটের অপারেশন দ্রুত সম্পাদন করতে সক্ষম। এটি memory efficiency, speed এবং concise syntax এর জন্য বিখ্যাত।

১. `data.table` প্যাকেজ ইনস্টল এবং লোড করা

প্রথমে data.table প্যাকেজটি ইনস্টল করতে হবে, যদি এটি আগে থেকেই ইনস্টল না থাকে।

# Install data.table
install.packages("data.table")

# Load the data.table library
library(data.table)

২. `data.table` এর বৈশিষ্ট্য

data.table মূলত data.frame এর উন্নত সংস্করণ, যেখানে কিছু বিশেষ বৈশিষ্ট্য রয়েছে:

Fast Operations: দ্রুত ডেটা প্রক্রিয়াকরণ (যেমন ফিল্টার, যোগ, মুছে ফেলা, গ্রুপিং ইত্যাদি)।
Memory Efficiency: মেমরি ব্যবহারে কার্যকরী, কারণ এটি by reference কাজ করে।
Concise Syntax: কোড লেখার জন্য সরল এবং দ্রুত উপায়।
Keying: data.table প্যাকেজে ডেটাসেটের কলামগুলো key হিসেবে ব্যবহার করা যায়, যা দ্রুত অনুসন্ধান এবং সাজানো (sorting) করতে সহায়তা করে।

৩. Creating a `data.table`

data.table তৈরি করা খুবই সহজ। আপনি একটি data.frame থেকে data.table তৈরি করতে পারেন অথবা সরাসরি data.table() ফাংশন ব্যবহার করে নতুন একটি data.table তৈরি করতে পারেন।

উদাহরণ: Creating a `data.table`

# data.table তৈরি করা
DT <- data.table(
  ID = 1:5,
  Name = c("John", "Jane", "Tom", "Lucy", "Mark"),
  Age = c(23, 34, 22, 41, 29),
  Salary = c(55000, 62000, 48000, 75000, 52000)
)

# ডেটা.table প্রদর্শন করা
print(DT)

আউটপুট:

   ID Name Age Salary
1:  1 John  23  55000
2:  2 Jane  34  62000
3:  3 Tom   22  48000
4:  4 Lucy  41  75000
5:  5 Mark  29  52000

এখানে, data.table() ফাংশন দিয়ে একটি data.table তৈরি করা হয়েছে।

৪. Basic Operations in `data.table`

৪.১. Subsetting (`[ ]` Operator)

data.table এ ডেটাকে subsetting বা নির্বাচন করা খুবই দ্রুত। [ ] অপারেটর ব্যবহার করে আপনি ডেটার যেকোনো অংশ বের করতে পারেন।

# Age 30 এর কম যারা তাদের নির্বাচন করা
DT[Age < 30]

আউটপুট:

   ID Name Age Salary
1:  1 John  23  55000
2:  3 Tom   22  48000
3:  5 Mark  29  52000

৪.২. Filtering Columns

data.table এ কলামগুলির মধ্যে সিলেকশন বা ফিল্টার করা খুব সহজ। এখানে শুধু কলামের নাম উল্লেখ করলেই হবে।

# শুধুমাত্র Name এবং Salary কলাম নির্বাচন করা
DT[, .(Name, Salary)]

আউটপুট:

   Name Salary
1: John  55000
2: Jane  62000
3: Tom   48000
4: Lucy  75000
5: Mark  52000

৪.৩. Sorting (`setorder()`)

setorder() ফাংশনটি ডেটাসেটকে দ্রুত সাজানোর জন্য ব্যবহৃত হয়। এটি কলাম অনুসারে ডেটা সাজায় এবং পরিবর্তন করা হয় in-place।

# Salary অনুসারে সাজানো
setorder(DT, Salary)

# সাজানো ডেটা দেখানো
print(DT)

আউটপুট:

   ID Name Age Salary
1:  3 Tom   22  48000
2:  5 Mark  29  52000
3:  1 John  23  55000
4:  2 Jane  34  62000
5:  4 Lucy  41  75000

৪.৪. Grouping (`by` argument)

data.table-এ grouping খুব দ্রুত করা যায়। এটি by আর্গুমেন্ট ব্যবহার করে সহজে গ্রুপিং এবং অগ্রাধিকার দেওয়া অপারেশন সম্পন্ন করতে সাহায্য করে।

# Age অনুযায়ী গড় Salary বের করা
DT[, .(AverageSalary = mean(Salary)), by = Age]

আউটপুট:

   Age AverageSalary
1:  22        48000
2:  23        55000
3:  29        52000
4:  34        62000
5:  41        75000

এখানে, by = Age দ্বারা গ্রুপিং করা হয়েছে এবং প্রতি বয়সের জন্য গড় Salary বের করা হয়েছে।

৫. Advanced Features in `data.table`

৫.১. Chaining Operations

data.table এর একটি দুর্দান্ত বৈশিষ্ট্য হল আপনি একাধিক অপারেশন চেইন করতে পারেন, অর্থাৎ একের পর এক কার্যক্রম খুব দ্রুত সম্পন্ন করতে পারেন।

# Multiple operations chaining
DT[, .(TotalSalary = sum(Salary), AverageAge = mean(Age)), by = Name][Salary > 50000]

এখানে, প্রথমে Name অনুযায়ী Salary এবং Age এর মোট এবং গড় বের করা হয়েছে, তারপর শুধুমাত্র সেই সারিগুলো দেখানো হয়েছে যাদের Salary ৫০,০০০ এর বেশি।

৫.২. Keys in `data.table`

keys ব্যবহার করে আপনি দ্রুত ডেটা খুঁজে পেতে পারেন, কারণ যখন একটি key সেট করা হয়, তখন data.table সেই কলামের উপর দ্রুত অনুসন্ধান করতে সক্ষম হয়।

# Key সেট করা
setkey(DT, Age)

# Age অনুসারে দ্রুত অনুসন্ধান
DT[Age == 34]

ব্যাখ্যা: এখানে setkey(DT, Age) দিয়ে Age কলামকে key হিসাবে সেট করা হয়েছে, ফলে ঐ কলামের উপর দ্রুত অনুসন্ধান করা সম্ভব।

৬. Handling Large Datasets in `data.table`

data.table প্যাকেজটি বৃহৎ ডেটাসেটের সাথে কার্যকরভাবে কাজ করতে সক্ষম। কারণ এটি in-place modification (ডেটা পরিবর্তন করার সময় নতুন কপি না তৈরি করে সরাসরি বর্তমান ডেটা পরিবর্তন করে) এবং memory efficient। এটি বড় ডেটা নিয়ে কাজ করার সময় মেমরি ব্যবহারের দিক থেকেও কার্যকরী।

ধাপে ধাপে কিছু কৌশল:

Efficient Memory Usage: বড় ডেটাসেটের সাথে কাজ করার সময় data.table মেমরি কম ব্যবহার করে এবং দ্রুত কার্যক্রম সম্পাদন করে।
Parallel Processing: R-এ data.table এর মাধ্যমে বড় ডেটাসেটের উপরে সমান্তরাল প্রক্রিয়াকরণ (parallel processing) করা যেতে পারে।

সারসংক্ষেপ

data.table একটি শক্তিশালী এবং দ্রুত ডেটা প্রক্রিয়াকরণ প্যাকেজ যা বৃহৎ ডেটাসেটের সাথে কাজ করার জন্য ডিজাইন করা হয়েছে।
এটি memory efficiency, speed, এবং concise syntax প্রদান করে, যা ডেটার দ্রুত ফিল্টারিং, গ্রুপিং, সাজানো, এবং বিশ্লেষণ করতে সহায়তা করে।
Keying, Chaining Operations, এবং Advanced Grouping এর মতো বৈশিষ্ট্যগুলি বড় ডেটাসেটের কার্যক্ষমতা আরও বাড়ায়।

এটি data.frame এর তুলনায় দ্রুত এবং কার্যকরী, এবং বড় ডেটাসেটের জন্য বিশেষভাবে উপযোগী।

Content added By

Azizar Rahman Aziz

Parallel Computing in R Advanced Data Structures (S4, Reference Classes) R এবং Hadoop/Spark এর সাথে Integration

Working with Large Datasets (data.table)

R-এ Large Datasets এবং `data.table` এর ব্যবহার

১. `data.table` প্যাকেজ ইনস্টল এবং লোড করা

২. `data.table` এর বৈশিষ্ট্য

৩. Creating a `data.table`

উদাহরণ: Creating a `data.table`

৪. Basic Operations in `data.table`

৪.১. Subsetting (`[ ]` Operator)

৪.২. Filtering Columns

৪.৩. Sorting (`setorder()`)

৪.৪. Grouping (`by` argument)

৫. Advanced Features in `data.table`

৫.১. Chaining Operations

৫.২. Keys in `data.table`

৬. Handling Large Datasets in `data.table`

সারসংক্ষেপ

Promotion

Satt AI

Hi, আমি SATT AI!

Working with Large Datasets (data.table)

R-এ Large Datasets এবং data.table এর ব্যবহার

১. data.table প্যাকেজ ইনস্টল এবং লোড করা

২. data.table এর বৈশিষ্ট্য

৩. Creating a data.table

উদাহরণ: Creating a data.table

৪. Basic Operations in data.table

৪.১. Subsetting ([ ] Operator)

৪.২. Filtering Columns

৪.৩. Sorting (setorder())

৪.৪. Grouping (by argument)

৫. Advanced Features in data.table

৫.১. Chaining Operations

৫.২. Keys in data.table

৬. Handling Large Datasets in data.table

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!

R-এ Large Datasets এবং `data.table` এর ব্যবহার

১. `data.table` প্যাকেজ ইনস্টল এবং লোড করা

২. `data.table` এর বৈশিষ্ট্য

৩. Creating a `data.table`

উদাহরণ: Creating a `data.table`

৪. Basic Operations in `data.table`

৪.১. Subsetting (`[ ]` Operator)

৪.৩. Sorting (`setorder()`)

৪.৪. Grouping (`by` argument)

৫. Advanced Features in `data.table`

৫.২. Keys in `data.table`

৬. Handling Large Datasets in `data.table`